大家都看過驗證碼,不過你們看過上面這些匪夷所思的驗證碼嗎……
為什麼會有這些離譜的驗證碼 —— 其實都是爬蟲害的!
什麼是爬蟲?
舉個例子:假設你建立了一個比價網站,會比較各大電商網站上同一件商品的價格,並告訴消費者哪邊賣的最便宜。價格資訊從哪來?當然不可能雇用成百上千個員工手動複製貼上。最常見的做法,就是使用爬蟲程式全年無休地監控不同網站,並從網頁中擷取價格資訊。
這種服務對於消費者來說,當然是熱烈歡迎的好消息。
但對網站來說,上述爬蟲瀏覽的流量,會帶來不必要的網路壓力和流量開銷;另一方面,也會造成商業機密外洩、拉低業績。
爬蟲有各式各樣的類型,有些可以正面影響銷售業務,但有些就不那麼讓人喜歡了。
面對惡意的內容擷取程式,人人都有自己的錦囊妙計—— 例如很多電商網站會向爬蟲程式隱藏商品價格;很多閱讀類網站,會把文字內容製作成圖片來防止爬取;最後就是透過驗證碼的使用,要求用戶證明自己是人類,所以就有了開頭那些離譜的驗證碼。
小小爬蟲帶來的重大損失
根據 Akamai 的統計,2017年網路上全網流量有30%-70%是由各種爬蟲造成的,更有甚者,21.8%的流量是由惡意爬蟲產出的,相比2016年增加了9.5%。
其中航空公司、金融服務機構以及醫療健康機構等行業是惡意爬蟲的重災區。據統計,一個標準型態的、年收入1億美元的線上商務網站,往往會因為爬蟲相關的問題面臨約400萬美元的損失。而根據美國廣告商聯合會的統計,今年,透過惡意爬蟲進行的數字化廣告詐欺行為可能讓企業承受高達65億美元的經濟損失!
但相關企業——特別是較為依賴精確即時數據的企業,對此也很為難。他們其實很清楚問題所在,但實在是不知道如何有效區分真實用戶和善意爬蟲(如搜索引擎)以及惡意爬蟲(如比價網站)。
去年,日本航空(JapanAirlines,JAL)的IT 經理注意到一個很奇怪的問題:網站上查詢餘票和票價的瀏覽量突然大幅激增,甚至讓訂票系統負荷超載,但機票的銷量卻沒有顯著增加。經過仔細調查,他們發現這並非因為旅客「只看不買」,而是遭遇了大量爬蟲程式的抓取。
當時他們訂票系統處理的流量有86%是爬蟲產生的!裡面包括前文提到的比價網站爬蟲、還有競爭對手的數據抓取爬蟲。接下來的問題就尷尬了,網站需要擴充流量嗎?拒絕的話,大量爬蟲流量讓一般旅客的購票體驗變得很差;擴充的話,白花冤枉錢而且治標不治本。
最重要的是,現在的爬蟲程式本身也非常先進和智慧,如果採取傳統的防堵措施(例如封 IP),它們很快就會發現並做出調整(換 IP 簡直比喝水還簡單!)。因此更有效的方式是,設法「愚弄」爬蟲,讓操作者認為自己已經獲得有價值的數據。想用爬蟲竊取我的價格和庫存資訊?那我就給你「量身定做」的假數據,慢走不送?
JAL 選擇了這樣的方法,他們安排了 Akamai Bot Manager。在一開始的兩個月評估階段,他們使用監視模式執行 Bot Manager ,但檢測出來的爬蟲數量遠遠低於預期。隨後 Akamai 幫助他們分析了大量日誌數據,並提出了各種建議,幫助 JAL 調整解決方案的各項設定,最後獲得了不錯的效果:惡意爬蟲流量大幅降低,而訂票系統的託管費用也因此降低了59%。
「我們曾將其他公司的安全和爬蟲管理解決方案納入考慮,但因為我們曾在其他專案與Akamai 有良好合作經驗,我們最後還是選擇了Akamai Bot Manager。另一個原因在於這個解決方案能採用多種方式回應爬蟲程式的動作。傳統防火牆只能攔截具體的字串,惡意爬蟲程式很容易就能採取措施並繞過攔截。但惡意爬蟲無法感知Bot Manager 的存在,因此對爬蟲的控管能夠更全面。」
—— JALI IT 規劃和推廣部門,客戶和電商系統主管 Kentaro Kandori
Akamai Bot Manager 將全球分佈的 Akamai Intelligent Platform™ 的可視性及規模與爬蟲程式特定的功能相融合,從而識別、歸類、管理和報告爬蟲流量。 Bot Manager 能在爬蟲程式透過最近的Akamai Edge 服務器連接到網站時對其進行識別,這一過程利用了Akamai 對全球爬蟲程式活動的可見性、自定義爬蟲程式特徵碼,以及對未知爬蟲程式的實時檢測。
藉此,企業能靈活地單獨管理已知的爬蟲程式或建立爬蟲程式的分類,並且根據與每個爬蟲程式或每種爬蟲程式類型交互的需求方式來安排不同的管理策略。進一步提高線上收入,改變競爭態勢的同時減少詐欺的發生,從而為客戶提供更完善的體驗。